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基于 关键 词 关联 度 指标 (KRI) 进行 LDA 噪声 主题 


过 滤 的 方法 研究 ~ 


W 将 甜 ” 刘 小 平 ” 刘 会 洲 
中 国 科学 院 文献 情报 中 心 ” 北 京 100190 


摘 要 : [目的 /意义 ] 针 对 LDA 模型 主题 识别 结果 通常 包含 骂 声 主题 的 问题 ,建立 科学 有 效 的 主题 过 滤 方 法 ,排除 噪声 主 
RA ,确保 主题 识别 及 后 续 演化 分 析 的 准确 性 。[ 方 法 /过 程 ] 基 于 关键 词 之 间 的 共 现 关系 ,构建 关键 词 关联 度 指标 
(KRI) ,借助 定量 手段 进行 主题 筛选 和 过 滤 。 以 单 细胞 研究 领域 为 例 , 计 算 各 主题 - 关键 词 分 布 的 KRI 值 ,与 人 
工 判读 结果 进行 对 比分 析 。 [ 结果 /结论 ] 实验 结果 表明 ,该 方法 能 够 有 效 排 除 LDA 模型 识别 结果 中 的 嗓 声 主题 ， 
提高 主题 识别 的 准确 性 ,也 在 一 定 程度 上 降低 了 主题 识别 过 程 对 人 工 判 读 的 依赖 性 。 
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体 ; 药 涵 丰 富 的 有 情报 价值 的 主题 内 容 。 近 年 来 ,很 多 
研 沉 者 尝试 采用 不 同 的 方法 对 海量 的 文献 知识 库 进 行 
信息 分 析 和 文本 主题 识别 , 以 辅助 科研 人 员 快速 把 握 
刻 术 主题 ,追踪 科技 领域 主题 演化 规律 ,提高 科研 效 


出 确切 含义 ,对 演化 分 析 的 精确 性 造成 严重 干扰 ,需要 
进行 主题 过 滤 。 本 研究 基于 LDA 模型 识别 结果 的 主题 
-关键 词 分 布 中 多 词 共 现 关系 的 统计 分 析 ,构建 了 关键 
词 关 联 度 指 标 ( Keywords relevance index,KRI) ,并 以 此 
为 依据 对 主题 识别 结果 进行 第 选 和 过 滤 , 去 除 无 确切 含 
义 的 噪声 主题 ,避免 了 对 主题 演化 研究 的 干扰 。 


2 相关 研究 


主题 模型 方法 能 够 从 语义 层面 深入 挖掘 “文本 
主题 -词语 "之 间 的 隐 含 关系 ,是 学 科 主题 演化 的 重要 
WESS HE. LDA 模型 即 潜在 的 狄 利克 雷 分 布 模型 (La- 
tent Dirichlet Allocation Model ) ,是 一 种 经 典 有 效 的 概 
率 生 成 模型 ,包含 文本 - 主题 - 词 三 层 贝 叶 斯 结构 ,可 
以 从 大 规模 文档 集中 挖 气 潜 在 的 主题 信息 "5 。LDA 模 
型 广泛 应 用 于 机 器 学 习 、 信 息 检索 .生物 识别 等 多 种 领 
域 ,尤其 在 科技 文献 主题 识别 与 演化 研究 中 发 挥 着 重 
要 作用 。 

在 利用 主题 模型 进行 学 科 主 题 演 化 分 析 的 过 程 
中 ,主题 识别 的 精确 性 是 基础 ,决定 了 后 续 步骤 中 构建 
的 主题 演化 路 径 是 否 准确 。LDA 模型 主题 识别 结果 往 
往 包含 少数 无 效 主题 ,这 些 主题 经 过 人 工 判读 难以 解读 


LDA 模型 自 提出 以 来 受到 广泛 关注 和 不 断 改进 ， 
在 此 基础 上 产生 了 经 典 的 Dynamic Topic Model ( 简称 
DTM ) 模型 2 Topic Over Time ( 简称 TOT) fu^ 等 ， 
以 及 近 几 年 用 于 微 博 等 短文 本 分 析 的 Biterm Topic 
Modeling (简称 BTM) 模型 "i .Hashtag -LDA 模型 5 ,可 
处 理 多 类 分 类 的 有 监督 的 Diagonal Orthant Latent 
Dirichlet Allocation ( 简称 DOLDA ) 模型 "9 等 。 

除了 对 传统 模型 的 改进 ,模型 质量 的 优化 提升 也 
是 研究 者 关注 的 重点 。 作 为 一 种 无 监督 的 机 器 学 习 方 
法 ,LDA 模型 生成 主题 的 质量 不 尽 如 和 人意, 有 些 主题 无 
法 解析 出 具体 的 含义 , 称 之 为 噪声 主题 。 噪 声 主题 的 
存在 直接 影响 LDA 模型 对 文本 数据 的 释义 情况 ,因此 
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非常 有 必要 对 LDA 模型 识别 结果 中 的 噪声 主题 进行 
过 滤 。 目 前 主要 的 研究 方法 有 以 下 几 种 : 

(1) 主题 词 判 定 法 。 这 种 方法 的 主要 思想 是 认定 
在 当前 语料库 中 频繁 出 现 而 在 一 般 英 语 中 不 常 出 现 的 
词汇 是 主题 词 ,认定 非 主题 词 为 噪声 词汇 从 而 将 其 排 


Uk. WERT 等 利用 一 个 外 部 语料库 ( Wikipedia 2014) 
生成 词 向 量 , 根 据 词 向 量 来 计算 两 个 单词 的 语义 相似 


度 , 再 与 主题 一 致 性 中 的 同文 档 词 频 和 矩阵 相 结合 ,实现 
外 部 语料库 对 主题 一 致 性 的 指导 作用 ,从 而 更 加 精确 
地 对 主题 质量 进行 评价 ,再 通过 设 定 闪 值 来 过 滤 噪 声 
主题 ,以 提高 主题 模型 的 质量 。 

(2 ) 主题 概率 分 布 法 。 曲 佳 彬 等 提出 通过 计算 主 
题 在 所 有 文献 中 出 现 的 概率 ,过 滤 掉 在 所 有 文献 中 出 
现 概率 低 的 主题 ”。 这 种 方法 有 一 个 假设 前 提 , 即 认 
为 硫 有 在 所 有 文献 中 出 现 概率 均 较 高 的 主题 , 才 是 反 
上 映 革 个 时 间 段 内 文献 主要 内 容 的 核心 主题 ,对 于 分 析 
的 响 演 化 有 重要 意义 ;反之 ,那些 在 多 数 文献 中 出 现 概 
率 矣 低 的 主题 , 则 很 可 能 是 边缘 化 甚至 无 意义 的 主题 ， 
对 绍 析 学 科 主 题 演化 作用 不 仅 不 大 ,而 且 有 可 能 干扰 
m ms 
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S 
的 定 题 过 滤 方法 。 词 语 在 该 主题 下 的 概率 分 布 越 平 
均 - 主 题 的 信息 箭 就 会 越 大 ,通过 设置 主题 信息 箭 的 阔 
值 二 以 达到 过 波 语 义 宽泛 主题 的 目的 。 根 据 LDA 模 
型 输出 的 “主题 - 词汇 ”分 布 ,可 计算 出 每 个 主题 的 信 
息 箭 ,其 计算 如 公式 (1) 所 示 吕 : 

Entropy( T) = -KY Pj InCP;) 公式 (1) 
其 中 ,K 为 常数 ,已 表示 主题 T 中 第 j 个 词 的 出 现 
概率 ,该 主题 中 共 包 含 m 个 词汇 。 这 种 方法 能 够 在 一 
定 程度 上 排除 无 效 主题 ,但 也 具有 较 大 的 局 限 性 
"———— 
主题 - 关键 词 分 布 具有 倾向 性 ,但 人 工 判读 无 法 解析 
出 确切 含义 的 主题 不 能 有 效 过 滤 。 

(4) 基 于 “垃圾 主题 " 的 过 滤 方 法 。 李 保利 等 提出 
通过 计算 由 LDA 模型 产生 的 主题 与 定义 的 不 能 凸显 
文档 内 容 的 “垃圾 主题 "之 间 的 相似 度 来 进行 主题 过 
滤 " 。 相 似 度 越 小 说 明 该 主题 越 能 凸显 文档 的 内 容 , 设 
置 合适 的 阔 值 过 滤 掉 相似 度 较 大 的 主题 。“ 垃 圾 主题 " 
可 从 “主题 - 词 " 的 角度 或 “文档 - 主题 "的 角度 定义 。 


N 


题 


(ERRED. Y.L. Chang 等 提出 利用 Spike- 
and-Slab 先 验 分 布 基于 文档 来 进行 特征 提取 …” ” , 属 
F slab 分 布 的 词 作 为 特征 被 保留 进行 主题 估计 ,属于 
spike 分 布 的 词 被 过 滤 掉 ,提高 了 模型 的 可 解释 性 且 稀 
玻 性 较 好 ,但 该 方法 对 于 主题 语义 的 抽取 缺乏 指导 性 
原则 。 


综 上 所 述 , 目 前 关于 主题 过 滤 的 方法 存在 各 自 的 
局 限 性 ,过滤 效 果 并 不 十 分 理想 ,特别 是 对 于 新 兴 主 
题 衰亡 主题 等 文档 数目 较 少 的 主题 类 型 容易 被 当成 
噪声 主题 过 滤 掉 。 因 此 ,探究 新 的 主题 过 滤 方 法 进 一 
步 提高 主题 过 滤 的 精确 性 是 非常 必要 的 。 本 研究 构建 
关键 词 关 联 度 指 标 (KRI) 进行 主题 过 小 ,对 文档 中 多 
个 关键 词 的 共 现 频率 进行 统计 分 析 ,通过 对 不 同 共 现 
词 数 赋予 不 同 的 权重 ,强化 了 多 关键 词 共 现 在 主题 语 
义 揭示 中 的 “贡献 率 ”。 


3 基于 KRI t 
方法 研究 


3.1 基于 LDA 的 主题 识别 

在 利用 LDA 模型 进行 主题 识别 的 过 程 中 ,主题 数 
目的 确定 直接 影响 主题 识别 的 效果 "-"”。 主 题 数目 
设置 过 多 ,会 造成 识别 出 的 主题 分 布 过 于 稀 玻 ,主题 相 
似 度 过 高 ;主题 数目 设置 过 少 ,会 导致 主题 过 于 宽泛 ， 
无 法 准确 揭示 文献 核心 内 容 。 在 本 研究 中 采用 主题 平 
均 相 似 度 和 困惑 度 相 结 合 的 方法 确定 最 优 主题 数目 。 

困惑 度 是 用 来 评估 语言 模型 优 劣 的 指标 ,其 基本 
评价 方式 是 对 测试 集 赋予 高 概率 值 的 模型 更 好 。 
LDA 模型 的 困惑 度 计算 公式 (2) 如 下 : 

> | 
Xia 


进行 LDA 噪声 主题 过 滤 的 


Perplexity ( D) = epf 


公式 (2) 

其 中 ,D 表示 语料库 的 测试 集 ,W 为 测试 集中 的 文 
档 数 ,NN, 表示 第 d 篇 文档 的 词汇 数 ,P(wv ) 表 示 第 d 篇 
文档 中 词汇 的 概率 分 布 。 

主题 平均 相似 度 是 衡量 所 有 主题 之 间 平 均 差异 各 
度 的 指标 ,通常 基于 Jensen -Shannon WUE (JS 散 度 ) 来 
衡量 “ ,计算 公式 (3) 如 下 : 
xc: x C E LIE 

Kx(K-1)72 


avg sim(T,, TJ B 


ARG) 
其 中 ,7, 和 了 分 别 表示 两 个 主题 ,JS(7 117 ) 表 示 
主题 7, 和 了 之 间 的 JS 散 度 。 


从 模型 泛 化 能 力 的 角度 出 发 ,困惑 度 越 低 ,LDA 模 
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型 的 泛 化 能 力 越 强 "" ;从 主题 抽取 效果 考虑 , EUF 
均 相似 度 越 小 ,说 明 主题 之 间 的 差异 越 大 ,重复 主题 越 
少 ,对 应 的 LDA 主题 识别 效果 越 好 "”" 。 通 常情 况 下 ， 
随 着 主题 数目 的 增多 ,主题 平均 相似 度 增 大 ,困惑 度 大 
致 旦 下 降 趋势 ,但 会 出 现 一 些 明显 的 拐点 ,这 些 拐点 反 
喘 出 在 该 主题 个 数 时 模型 的 泛 化 能 力 明显 增强 。 本 
研究 综合 考虑 了 困惑 度 和 主题 平均 相似 度 ,选取 困惑 
度 曲 线 下 降 趋 缓 处 的 拐点 ,比较 主题 平均 相似 度 大 小 ， 
结合 实际 主题 识别 效果 , 选 定 最 优 主题 数目 。 
3.2 KRI 的 构建 

要 想得到 好 的 主题 过 小 效果 ,就 需要 一 个 客观 的 
主题 评价 指标 作为 主题 筛选 和 过 滤 的 依据 。 在 文献 情 
报 研究 中 ,通常 认为 存在 共 现 关系 的 词语 能 够 揭示 同 
-主题 含义 ,从 而 基于 共 词 分 析 进 行文 本 挖掘"" 。 
相配 研究 中 ,通过 对 主题 - 关键 词 分 布 中 ,关键 词 之 间 
的 不 现 关系 进行 统计 分 析 ,筛选 有 效 主题 ,过 滤 噪 声 主 
巍 传 统 的 共 词 分 析 往 往 只 考虑 词语 两 两 之 间 的 共 现 
关 驳 , 某 一 主题 下 关键 词 两 两 共 现 频率 (co -occurrence 


aieney ) 计 算 公式 (4) 为 : 
C 


coof( W, ,W,) 2 公式 (4) 


2 


“除了 两 两 共 现 的 情况 ,关键 词 分 布 同 时 存在 三 词 
共 现 .四 词 共 现 等 高 阶 共 现 的 情况 ,类 似 两 两 共 现 频率 
计算 公式 ,可 以 得 到 ,三 词 共 现 频率 计算 公式 (5 ) 为 : 


exf(W, W W) ARG) 
四 词 共 现 频率 计算 公式 (6) 为 
让 公式 (6) 


coof( W, ,W, ,W, ,W,) TN. 
4 


以 此 类 推 ,可 以 得 到 所 有 高 阶 共 现 的 频率 计算 公式 。 

一 个 主题 - 关键 词 分 布 中 ,共同 出 现 于 同一 篇 文 
献 的 关键 词 数 越 多 ,同时 包含 这 些 关键 词 的 文章 数目 
越 多 ,表明 这 个 主题 越 “ 集 中 ”, 主题 揭示 度 越 高 ,该 主 
题 揭示 的 含义 越 准 确 。 同 时 ,高 阶 共 现 现象 比 低 阶 共 
现 现 象 揭 示 更 高 的 主题 集中 度 ,为 突出 多 词 共 现 对 揭 
示 主 题 含义 的 “贡献 率 ” ,将 采用 关键 词 共 现 数目 的 平 
方 值 作为 权重 。 基 于 以 上 讨论 ,构建 主题 关键 词 关 联 
性 指标 ( Keywords relevance index, 即 KRI) ,计算 公式 
(7) 如 下 : 

KRI 22? Y, coof(W,,W,) +3 Y, coof(W,,W,,W.) 


+ +n Y, coof( W,,W,, W., W, ) 公式 (7) 

KRI 反映 了 主题 中 关键 词 共 现 的 强度 ,揭示 了 该 
主题 的 关键 词 在 不 同文 章 中 的 分 布 集中 度 ,为 噪声 主 
题 的 识别 提供 了 量化 手段 。 


4 ”实证 研究 


4. 数据 集 构建 

单 细胞 研究 是 生命 科学 领域 的 研究 热点 ,是 生命 
科学 、 材 料 科 学 、 化 学 等 多 学 科 融 合 的 交叉 科学 , 单 细 
胞 技术 广泛 应 用 于 胚胎 植 人 前 遗传 学 诊断 .干细胞 
与 再 生 医学 ”-” ,癌症 诊断 和 治疗 、 环 境 监 测 等 
诸多 方面 ,涉及 的 细 分 领域 较 多 ,要 对 其 进行 主题 分 
析 , 对 主题 识别 方法 提出 了 较 高 的 要 求 。 为 验证 基于 
KRI 进行 主题 过 滤 方 法 的 有 效 性 ,以 单 细 胞 领域 为 例 
进行 LDA 主题 识别 及 主题 过 滤 。 从 Web of Science 核 
心 合集 中 检索 得 到 1990 - 2018 年 单 细胞 领域 相关 文 
献 54 848 篇 ,类 型 为 Review 、Article , Proceeding Paper 
和 Letter, 从 中 抽取 每 篇 论文 的 标题 .摘要 和 作者 关键 
词 作为 主题 识别 和 分 析 的 语 料 。 用 python 语言 编写 程 
序 ,调用 NLTK 库 进 行 分 词 .词性 标注 . 词 干 化 . 词 形 还 
原 及 去 停 用 词 等 文本 预 处 理 。 
4.2 ”基于 LDA 的 主题 识别 及 人 工 判读 

采用 LDA 模型 对 构建 好 的 数据 集 进 行 主 题 识别 ， 
计算 主题 数目 K 为 5 -100, 步 长 为 5 的 困惑 度 和 主题 
平均 相似 度 ,绘制 困惑 度 - 主题 平均 相似 度 曲线 见 图 
1。 随 着 主题 数目 不 断 增加 ,困惑 度 呈 下 降 趋 势 , 主题 
数目 达到 30 之 后 ,下 降 程度 趋 缓 ,表明 K = 30 时 模型 
的 泛 化 能 力 增强 " ,主题 数目 达到 45 之 后 不 再 下 降 。 
综合 考虑 困惑 度 和 主题 平均 相似 度 的 值 ,选取 30 个 主 
题 的 LDA 模型 输出 结果 ,通过 分 析 主 题 - 关键 词 分 布 
中 概率 较 高 的 关键 词 及 各 个 关键 词 之 间 的 语义 关系 进 
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1 不 同 K 值 下 LDA 模型 困惑 度 - 主题 
平均 相似 度 曲 线 
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3&1 列 出 了 采用 LDA 模型 识别 出 的 30 个 主题 中 
的 部 分 主题 。 针 对 每 个 主题 ,只 展示 在 主题 中 出 现 概 
率 较 高 的 前 10 个 词汇 。 从 表 1 可 以 看 出 ,有 些 主题 的 
关键 词 能 够 较 好 地 揭示 主题 内 容 , 如 主题 13 所 含 大 多 
数 词语 与 “基因 表达 调控 ”相关 ,主题 23 所 含 词汇 均 与 
“微生物 燃料 电池 相关 ”。 但 并 非 所 有 的 主题 都 能 i 


过 关键 词 解析 出 确切 的 主题 内 涵 , 如 主题 7 中 ,其 所 含 


[ 


的 高 概率 词 “ comparison " * datum” “ reaction ” “ extent” 
“degree "都 是 含义 非常 宽泛 的 词汇 ,不 能 表征 具体 的 
含义 ,因此 需要 通过 主题 过 滤 排 除 这 部 分 没有 确切 含 
义 的 噪声 主题 。 


X1 K=30 时 LDA 主题 识别 结果 (部 分 主题 ) 


主题 序号 主题 主题 词汇 
3 干细胞 培养 mouse , vivo „vitro ‚culture „differentiation , proliferation ,stem „factor ‚survival ,bone marrow 
13 基因 表达 调控 expression , protein ,gene expression ,gene .mRNA „transcription \situ hybridization ,regulation , promoter , bioenergy 
23 微生物 燃料 电池 microbial fuel ,cell density „generation ‚removal , maximum power , wastewater electricity mW/m „power density 
24 单 细 胞 活体 成 像 detection „microscopy „imaging „sensitivity „fluorescence , measurement , living „quantification ‚sample „resolution 
7 / comparison , datum „situ „reaction „variation „single cell „extent „form , period „degree 
12 / contrast ,betum „target „hypothesis „basal „addition „fusion , column , injury „majority 


4.55 利用 KRI 进行 主题 过 滤 

[根据 3.2 中 构建 的 KRI 对 K = 30 时 的 LDA 模型 
VET EEE ,计算 各 主题 - 关键 词 分 布 的 
KRD 值 汇总 并 降序 排列 ( 表 2) ,KRI 值 较 高 ( > 100) 的 
Timon 标注 ,KR 值 较 低 ( < 20) H 3: BUT] CL) 标 


CO 3 2 中 看 出 ,经 人 工 判读 无 法 解析 出 确切 含义 
的 完 效 主题 ,其 KRI 值 均 较 低 ,在 本 实例 中 均 低 于 20, 
DEII KRI 指数 可 以 起 到 良好 的 主题 过 小 作用 。 
4.5» 与 词 共 现 聚 类 方法 的 对 比分 析 

SEKRI 主题 过 滤 方 法 借鉴 了 共 词 分 析 的 思想 ,但 又 
与 笨 统 的 共 词 分 析 不 同 。 共 词 分 析 法 认为 , 当 两 个 关 
键 向 或 主题 词 在 一 篇 文献 中 同时 出 现时 ,表示 二 者 之 
间 拱 有 一 定 相 关 性 , 共同 出 现 次 数 越 多 , 相关 性 越 
大 图 。 这 种 方法 仅 考虑 了 关键 词 两 两 之 问 的 共 现 , 忽 
视 了 实际 存在 的 多 个 关键 词 共 现 情况 ,实际 上 多 个 关 
键 词 的 共 现 更 能 体现 主题 的 集中 性 和 有 效 性 。KRI 方 
法 采用 多 词 共 现 分 析 , 通 过 对 多 词 共 现 频率 的 统计 分 
析 计 算 KRI 值 。 在 此 也 利用 词 共 现 聚 类 的 方法 做 了 主 
题 分 析 , 以 便 与 经 KRI 过 滤 的 LDA 主题 识别 结果 进行 
对 比 。 

此 处 使 用 了 可 视 化 工具 VOSviewer 软件 ,利用 共 
词 分 析 得 到 词 的 共 现 网 络 见 图 2。 共 词 分 析 法 的 结 
得 到 了 六 个 大 主题 ,分 别 是 基因 表达 调控 (红色 ) . 神 
经 调节 及 钙 调 控 ( 绿 色 ) .微生物 燃料 电池 ( 蓝 色 ) . 单 
细胞 培养 及 分 析 ( 黄色 ) . 单 细胞 动力 学 建 模 (紫色 ) 以 
及 单 细胞 凝 胶 电 泳 ( 天蓝 色 )。 对 关键 词 共 现 网 络 进 
一 步 分 析 , 根 据 每 个 大 主题 内 部 的 关键 词 徐 ,以 节点 关 
键 词 为 核心 又 可 以 划分 为 若干 子 主 题 。 如 基因 表达 调 


表 2 K=30 时 LDA 主题 识别 结果 按 KRI 指数 降序 排列 


主题 编号 KRI 指数 主题 内 容 
23 10 468.970 25(H) 微生物 燃料 电池 
21 1 624. 146 247(H) 单 细胞 凝 胶 电 泳 
29 757.900 1017(H) 单 细胞 油脂 
19 496.705 424 9(H) 胚胎 植 入 前 遗传 学 诊断 
28 294.724 320 8(H) 胞 内 钙 调控 
3 291.985 213 1(H) 干细胞 体外 培 
6 161.959 113 3(H) 运动 的 神经 调节 
13 152.734 512(H) 基因 及 蛋白 表达 调控 
18 131.249 716 9(H) 肿瘤 异 质 性 
14 130.450 775 2(H) 免疫 反应 
0 96. 627 829 胰岛 素 分 泌 及 转运 
2 87. 672 684 46 肿瘤 诊断 和 治疗 
24 84.359 465 74 单 细 胞 活体 成 像 
17 69.713 891 82 细胞 周期 
10 69.388 108 52 单 细 胞 蛋 
20 52.131 314 74 单 细胞 全 基因 组 测序 
5 50. 105 380 24 细胞 粘 隐 
1 45.353 136 31 胚胎 发 生 
11 39.321 852 06 胞 外 电子 传递 
15 34. 559 458 65 细胞 迁移 
27 31. 564 428 77 细胞 形态 学 观察 
9 26.790 711 12 单 细 胞 数学 建 模 
8 23. 621 107 04 单 细胞 给 药 
26 23.545 202 22 单 细 胞 质谱 
16 19. 792 553 73(L) 无 效 主题 
22 18.384 718 5(L) 无 效 主题 
12 15.536 748 93(L) 无 效 主题 
25 15.222 222 22(L) 无 效 主题 
4 12.328 025 48(L) 无 效 主 题 
7 12.074 777 76(L) 无 效 主题 
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控 可 以 划分 为 干细胞 基因 表达 调控 肿瘤 细胞 异 质 性 、 
癌症 诊断 和 治疗 、 单 细胞 原 位 杂交 、 流 式 细 胞 术 5 个 子 
主题 ,神经 调节 及 钙 调 控 包 含 神经 调节 、 胞 内 钙 调 控 、 
受 体 激活 ` 细 胞 凋 亡 4 个子 主题 ,微生物 燃料 电池 包含 
微生物 燃料 电池 产 电 性 能 评价 ,污水 处 理 、. 生 物 修复 、 
single.cell 8 
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污 通过 以 上 的 分 析 可 以 看 出 , 共 词 分 析 可 以 准确 识 
中 莹 单 细胞 领域 几 个 大 的 研究 方向 并 将 其 划分 为 几 个 
大 里 题 ,每 个 大 主题 下 又 可 以 根据 节点 关键 词 划 分 若 
PEEB, 关键 词 共 现 网 络 还 可 以 清晰 地 呈现 出 各 个 
ATE 然而 , 共 词 分 析 存 
在 和 下 问题 。 第 一 , 共 词 分 析 中 存在 许多 孤立 词 ,这 些 
词 和 其 他 关键 词 之 间 缺 乏 关联 ,对 于 主题 解析 造成 一 
定 影响 ,如 基于 KRI 过 滤 的 LDA 主题 识别 结果 中 的 
“ 单 细 胞 油脂 “胚胎 植 入 前 遗传 学 诊断 ”免疫 反应 ” 
“细胞 周期 ”“ 单 细胞 全 基因 组 测序 ”胚胎 发 生 "等 主 
题 的 核心 关键 词 在 VOSviewer 关键 词 共 现 网 络 中 均 为 
孤立 词 ,导致 这 些 主题 无 法 通过 共 词 网 络 识别 出 来 。 
第 二 , 共 词 分 析 法 受 限 于 词 频 的 影响 ,对 于 常规 主题 、 
热点 主题 的 识别 较 容易 ,难以 发 现 一 些 较 小 的 .边缘 的 
主题 ,不 能 保证 主题 的 全 面 性 和 完整 性 。 第 三 , 共 词 分 
析 对 于 主题 颗粒 度 的 把 控 有 一 定 困难 。LDA 模型 中 可 
以 对 主题 数目 的 选择 调整 识别 出 的 主题 颗粒 度 , 共 词 
分 析 的 结果 易 受 共 现 频率 阔 值 设 定 的 影响 , 阔 值 过 低 ， 
出 现 的 关键 词 太 多 ,对 分 析 造 成 干扰 , 阔 值 太 高 ,一 些 
非 热 点 主题 又 难以 识别 。 第 四 ,科技 文献 文本 挖掘 的 
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产 电 微 生物 胞 外 电子 传递 机 制 4 个 子 主题 , 单 细胞 培 
养 及 分 析 包 含 单 细胞 培养 . 单 细胞 活体 成 像 . 微 流 控 芯 
片 ` 细 胞 迁移 4 个 子 主题 , 单 细胞 动力 学 建 模 包 含 单 细 
胞 生长 动力 学 数学 建 模 和 单 细 胞 蛋白 2 个 子 主题 , 单 
细胞 凝 胶 电泳 无 细 分 子 主题 。 
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图 2  VOSviewer 软件 对 单 细胞 领域 共 词 分 析 结 果 


目的 通常 并 不 限于 主题 识别 ,更 关注 主题 演化 情况 。 
LDA 主题 模型 有 先 离散 、 后 离散 以 及 将 时 间 信 息 结合 
到 LDA 模型 中 三 种 主要 的 主题 演化 分 析 思 路 ,可 以 通 
过 计算 主题 强度 和 主题 相似 度 研究 主题 强度 和 内 容 的 
变化 ,便于 定量 地 研究 主题 演化 情况 。 相 比 之 下 , 共 词 
分 析 对 时 间 元 素 的 应 用 比较 简单 ,不 利于 反映 学 科 领 
域 的 更 细 化 的 发 展 和 演化 。 
4.5 与 “基于 主题 分 布 的 边缘 主题 识别 与 过 滤 ” 方 法 
的 对 比分 析 

Xf K 230 时 的 文档 - 主题 分 布 进行 统计 分 析 ,每 
个 主题 包含 的 文档 数目 与 数据 集 文档 总 数 的 比值 即 为 
主题 概率 。 由 图 3 可 以 看 出 ,主题 的 KRI 指数 曲线 与 
文档 - 主题 概率 曲线 二 者 趋势 大 致 相同 ,特别 是 对 于 
高 概率 主题 的 判断 ,两 条 曲线 的 重合 度 较 高 ,但 对 于 低 
概率 主题 的 判断 并 不 完全 一 致 ,例如 主题 19 虽然 主题 
概率 值 较 低 ,但 其 KRI 值 在 有 效 范围 内 , 旦 人 工 判读 为 
有 确切 含义 的 主题 。 

将 lgKRI 值 及 主题 概率 按照 降序 排列 得 到 表 3。 
发 现 有 些 概 率 较 高 的 主题 并 没有 确切 含义 ,相反 有 些 
低 概率 主题 为 有 效 主题 。 综 合 比较 人 工 判读 结果 KRI 
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(3 ) :92 -99. 
is om — | 100 的 标注 (H) ,KRI 值 小 于 20 的 标注 (L) 。 
i ol | 46 KRI 指标 对 最 优 主 题 数目 确定 的 指导 意义 
I 在 LDA 模型 中 ,主题 数目 K 的 取 值 直接 影响 到 模 
y ox | 型 质量 和 主题 生成 ,主题 数目 过 多 或 过 少 都 会 对 主题 
is oo — | 识别 结果 产生 影响 。 图 1 困惑 度 - 主题 相似 度 曲 线 
ke 0.02 中 ,K=30 ftl K 245 时 都 出 现 拐 点 ,表明 在 这 两 处 LDA 


012345 67 89 101112131415 16 17 18 192021 22232425 2627 28 29 
——lgKRI e— 主题 概率 


图 3 K=30 时 LDA 识别 结果 KRI 指数 及 
文档 - 主题 概率 分 布 曲 线 


上 数 以 及 主题 概率 ,KRI 指标 的 主题 过 滤 效 果 优 于 “ 基 
于 主题 分 布 的 边缘 主题 识别 与 过 滤 ”的 方法 。 
qe 表 3 K=30 时 LDA 主题 识别 结果 KRI 指数 


> 与 主题 概率 按 降序 排列 对 比分 析 

主题 编号 lgKRI 主题 编号 主题 概率 
( à 4.019 903 966(H) 23 0.099 711 931 
3.210 625 133(H) 21 0.055 553 53 
2.879 611 965(H) 3 0.045 051 779 
2.696 098 903(H) 1 0.039 399 796 
2.469 415 976(H) 9 0.038 141 774 
2.465 360 858(H) 28 0.036 847 287 
2.209 405 39(H) 5 0.035 753 355 
2.183 937 182(H) 18 0.034 622 958 
2.118 098 375(H) 13 0. 034 240 082 
2.115 446 664(H) 6 0.034 148 921 
1.985 102 222 2 0.034 130 688 
1.942 864 304 20 0.032 033 985 
1.926 133 821 22 0.031 924 592 
1. 843 319 328 24 0.031 541 715 
1.841 285 049 i 0.029 846 12 
20 1. 717 098 678 14 0.029 773 191 
5 1.699 884 362 15 0.029 080 368 
1 1.656 607 325 12 0. 028 460 473 
11 1. 594 633 965 17 0. 028 442 24 
13 1.538 566 931 26 0.027 494 166 
27 1.499 197 934 29 0.027 275 379 
9 1.427 984 241 0 0.026 983 664 
8 1.373 300 248 19 0.025 488 623 
26 1.371 902 425 16 0.025 233 372 
16 1.296 501 833(L) 25 0. 024 996 354 
22 1.264 456 984( L) 4 0. 024 631 709 
12 1.191 360 148(L) 10 0.023 209 597 
25 1.182 478 058(L) 27 0.022 553 238 
4 1.090 893 523(L) 7 0.022 206 826 
7 1.081 879 146(L) 8 0.021 204 055 


为 便于 作 图 比较 ,将 KRI 指数 取 对 数 ,KRI 值 大 于 


模型 的 泛 化 能 力 均 显著 增强 。K =45 之 后 ,困惑 度 曲 
线 趋 于 平缓 ,几乎 不 再 下 降 ,从 这 个 角度 看 ,K =45 时 
主题 识别 效果 更 佳 。 但 从 主题 平均 相似 度 的 角度 看 ， 
K =30 时 平均 JS 距离 更 大 , 主题 平均 相似 度 更 低 ( 见 
表 4) ,识别 效果 更 好 。 那 么 ,30 和 45 哪个 是 最 优 主题 


数目 呢 ? 
表 4 K=30 和 K=45 时 困惑 度 、 平 均 JS 距离 对 比 
主题 数目 困惑 度 平均 JS 距离 
30 3 830. 327 0.477 
45 3 600. 460 0.418 


通过 人 工 判读 分 析出 人 =30( 见 表 2) 和 下 =45( 见 
表 5) 时 主题 识别 结果 并 进行 KRI 指数 计算 及 统计 分 析 : 

K=45 时 识别 出 的 无 效 主题 有 19 个 , 占 42.2% ， 
远 高 于 K=30 时 的 无 效 主题 占 比 20% ( 见 表 6)。 两 种 
主题 数目 下 ,能 识别 出 一 些 共同 有 效 主题 ,如 高 KRI 值 
的 核心 主题 “微生物 燃料 电池 ”“ 单 细胞 凝 胶 电 泳 ”"“ 单 
细胞 油脂 ”胚胎 植 和 人 前 遗传 学 诊断 ”等 。 同 时 ,两 种 
主题 数目 下 识别 出 非 共 同 有 效 主 题 ,经 人 工 判 读 发 现 
K =30 时 主题 有 效 程度 更 高 。K =45 时 ,主题 “空气 阴 
极 微生物 燃料 电池 ”与 “微生物 燃料 电池 性 能 " 均 为 
“微生物 燃料 电池 ”的 子 主题 ,说 明 K =45 时 主题 识别 
粒度 偏 小 。 综 合 考 虑 可 以 得 出 ,K =30 时 LDA 模型 的 主 
题 识别 效果 更 好 。 由 此 可 见 ,通过 困惑 度 - 主题 相似 度 
曲线 选取 最 优 主题 数目 时 ,可 以 计算 不 同 拐点 处 主题 数 
目下 的 KRI 指数 ,比较 分 析 辅 助 判 断 最 优 主题 数目 。 


5 结语 


LDA 模型 识别 结果 中 噪声 主题 的 存在 影响 了 主题 
识别 和 后 续 主 题 演 化 分 析 的 准确 性 。 本 文 提出 一 种 基 
于 关键 词 关联 度 指标 (KRI) 进行 主题 过 滤 的 方法 ,能 
够 有 效 过 滤 无 确切 含义 的 噪声 主题 ,提高 了 主题 识别 
结果 的 精准 性 ,保证 了 后 续 主 题 演化 路 径 构建 的 科学 
性 。 比 较 分 析 发 现 ,KRI 指标 方法 的 主题 过 滤 效 果 优 
于 “基于 主题 分 布 的 边缘 主题 识别 与 过 滤 "方法 。KRI 
指标 可 以 在 一 定 程度 上 降低 主题 识别 过 程 对 人 工 判读 
的 过 度 依 赖 , 对 于 最 优 主 题 数 目的 选择 也 具有 一 定 的 
参考 作用 。 
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表 5 K=45 f LDA 主题 识别 结果 按 KRI 指数 降序 排列 


KRI 指数 主题 内 容 KRI 指数 主题 内 容 
2 011. 294 889(H) 微生物 燃料 电池 21.572 499 19 胚胎 发 生 
1 164.211 795(H) 单 细 胞 凝 胶 电泳 20. 814 238 04 遗传 工程 改造 植物 细胞 壁 
1 160.043 652(H) 单 细 胞 油脂 20. 510 889 63 单 细胞 分 析 方 法 
1 013.663 676(H) 胚胎 植 和 前 遗传 学 诊断 19.445 412 31(L) 无 效 主题 
864.246 296 6(H) 空气 阴极 微生物 燃料 电池 18.136 209 81(L) 无 效 主题 
435.073 998 3(H) 胞 内 钙 调控 17.140 422 63(L) 无 效 主题 
350.816 584 4(H) 干细胞 体外 培养 16.811 428 57(L) 无 效 主题 
161.199 070 7(H) 细胞 表面 互 作成 像 12.024 556 62(L) 无 效 主题 
132.747 798 2(H) 肿瘤 诊断 和 治疗 10.581 726 74(L) 无 效 主题 
125. 680 585(H) 运动 的 神经 调节 10.258 317 03(L) 无 效 主题 
116.797 505 5(H) 基因 及 蛋白 表达 调控 8. 706 666 667 (L) 无 效 主题 
109.034 513 7(H) 细胞 迁移 8. 701 504 355(L) 无 效 主题 
107.947 918 6(H) 免疫 反应 8.252 786 221(L) 无 效 主题 
S 82. 021 390 37 群体 异 质 性 演化 7.819 672 131(L) 无 效 主题 
| 60.358 184 76 微生物 燃料 电池 性 能 7.426 499 033(L) 无 效 主题 
er 59.172 449 51 细胞 凋 亡 和 细胞 坏死 7.073 170 732(L) 无 效 主题 
co 55.217 066 67 细胞 电 生理 6.679 146 812(L) 无 效 主题 
= 48.393 026 57 单 细胞 质谱 6.660 066 007(L) 无 效 主题 
x 41.035 398 23 神经 胶 质 瘤 类 型 分 析 6.531 147 541 (L) 无 效 主题 
Ea 34. 809 663 87 生物 降解 6.356 25(L) 无 效 主题 
eo 30. 060 753 34 肿瘤 异 质 性 6.269 982 238(L) 无 效 主题 
CN 22.500 496 52 胞 外 电子 传递 5.983 132 53(L) 无 效 主题 
e 22.418 181 82 和 蛋白质 稳定 性 


N ee 
~œ #6 K-3030K =45 时 LDA 识别 结果 中 有 效 
>< 主题 及 噪声 主题 占 比分 析 


题 数 目 有 效 主题 数 无 效 主题 数 无 效 主题 占 比 
. - 30 24 6 20% 
A 4 26 19 42.2% 


© 

但 是 ,KRI 指标 在 有 效 主题 和 无 效 主题 之 间 没 有 
明显 清晰 的 界限 ,从 有 效 主 题 到 无 效 主题 KRI 指标 不 
是 “断崖 式 " 下 降 ,在 进行 主题 过 滤 时 只 能 起 到 参考 作 
用 ,不 是 主题 有 效 性 的 绝对 判断 指标 ,仍然 需要 结合 
工 判读 做 出 最 终 的 取舍 。 本 研究 只 是 验证 了 KRI 的 主 
题 过 滤 方 法 对 于 LDA 模型 有 效 , 是 否 适用 于 其 他 主题 
模型 识别 结果 的 主题 过 滤 有 待 于 进一步 的 研究 。 
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Abstract; | Purpose/ significance | The identification results of the LDA model is sometimes unsatisfactory due 


to some meaningless topics mixed together. Therefore, it' s quite necessary to establish an effective topic filtering 


method to eliminate these noise topics and to ensure the accuracy of subsequent evolution analysis. | Method/ 


process | Based on the co-occurrence relationship between keywords, keywords relevance index ( KRI) was construc- 


ted. Taking the field of single cell research as an example, KRI values of the distribution of theme -keywords were 


calculated and compared with the results of manual interpretation. | Result/conclusion | Experimental results show 


that this method can effectively eliminate meaningless noise topics in the LDA model recognition results, which can 


improve the accuracy of topic recognition and the subsequent topic evolution analysis. It also helps to reduce the de- 


pendence on manual interpretation in the process of topic identification through the topic model method. 
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